Natiq是阿拉伯语的端到端文本到语音系统。我们的语音合成器使用Encoder-Decoder架构引起了人们的注意。我们同时使用了基于TACOTRON的模型(Tacotron-1和Tacotron-2)和更快的变压器模型来从字符中生成MEL光谱图。我们将tacotron1与Wavernn Vocoder,Tacotron2与WaveLow Vocoder和ESPNET变压器与平行波甘gan vocoder串联,以从频谱图合成波形。我们使用了两个声音的内部语音数据:1)中立的男性“ hamza” - 叙述一般内容和新闻,以及2)表现力的女性“ Amina” - 叙述孩子的故事书来训练我们的模型。我们的最佳系统的平均平均意见评分(MOS)分别为Amina和Hamza的平均意见分别为4.21和4.40。使用单词和字符错误率(WER和CER)对系统的客观评估以及实时因子测量的响应时间有利于端到端体系结构ESPNET。 NATIQ演示可在线上https://tts.qcri.org提供
translated by 谷歌翻译